1赞

如何使用“] | [”分隔符读取pyspark中的文件

作者：php | 2023-09-06 21:59

如何解决《如何使用“]|[”分隔符读取pyspark中的文件》经验，为你挑选了1个好方法。

数据如下所示：

至少有50列和数百万行。

我确实尝试使用下面的代码来阅读：

dff = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "true").option("delimiter", "]|[").load(trainingdata+"part-00000")

它给了我以下错误：

IllegalArgumentException: u'Delimiter cannot be more than one character: ]|['

1> 小智..：

您可以在RDD中使用多个字符作为分隔符

你可以试试这个代码

from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext

conf = SparkConf().setMaster("local").setAppName("test")
sc = SparkContext(conf = conf)

input = sc.textFile("yourdata.csv").map(lambda x: x.split(']|['))

print input.collect()

您可以使用toDF()函数将RDD转换为DataFrame（如果需要），并且不要忘记指定架构

推荐阅读

程序员
无法打开文件"***.app",因为您无权查看该文件

如何解决《无法打开文件"***.app",因为您无权查看该文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何检查变量是否是生成器函数？(例如功能*产量)

如何解决《如何检查变量是否是生成器函数？(例如功能*产量)》经验，为你挑选了1个好方法。 ... [详细]
程序员
perror()和printf()之间的区别

如何解决《perror()和printf()之间的区别》经验，为你挑选了1个好方法。 ... [详细]
程序员
在Amazon Linux中升级pip

如何解决《在AmazonLinux中升级pip》经验，为你挑选了4个好方法。 ... [详细]
程序员
如何动态更改bootstrap模态体

如何解决《如何动态更改bootstrap模态体》经验，为你挑选了2个好方法。 ... [详细]
程序员
当我尝试在列表中找到.IndexOf(a)时,为什么这会返回-1？

如何解决《当我尝试在列表中找到.IndexOf(a)时,为什么这会返回-1？》经验，为你挑选了1个好方法。 ... [详细]
程序员
Hazelcast SlowOperationDetector可以识别执行时间少于1秒的操作

如何解决《HazelcastSlowOperationDetector可以识别执行时间少于1秒的操作》经验，为你挑选了0个好方法。 ... [详细]
程序员
@relay的目的(pattern:true)

如何解决《@relay的目的(pattern:true)》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Swift代码编译为Linux的本机可执行文件

如何解决《将Swift代码编译为Linux的本机可执行文件》经验，为你挑选了1个好方法。 ... [详细]
程序员
将Update 1安装到TFS 2015后该怎么办失败

如何解决《将Update1安装到TFS2015后该怎么办失败》经验，为你挑选了1个好方法。 ... [详细]
程序员
PHP7认证

如何解决《PHP7认证》经验，为你挑选了1个好方法。 ... [详细]
程序员
javascript中的function()()

如何解决《javascript中的function()()》经验，为你挑选了1个好方法。 ... [详细]
程序员
如何使用Newtonsoft.Json反序列化JSON数组

如何解决《如何使用Newtonsoft.Json反序列化JSON数组》经验，为你挑选了1个好方法。 ... [详细]
程序员
每个列表列表的Erlang

如何解决《每个列表列表的Erlang》经验，为你挑选了1个好方法。 ... [详细]
程序员
打开文件夹时可以自动启动任务吗？

如何解决《打开文件夹时可以自动启动任务吗？》经验，为你挑选了3个好方法。 ... [详细]
程序员
我可以更改Apple Watch模拟器语言吗？

如何解决《我可以更改AppleWatch模拟器语言吗？》经验，为你挑选了0个好方法。 ... [详细]
程序员
isomorphic fetch post无法读取服务器上的正文

如何解决《isomorphicfetchpost无法读取服务器上的正文》经验，为你挑选了0个好方法。 ... [详细]
程序员
如何将byte []或位图转换为整数(R.drawable.picture)Android java

如何解决《如何将byte[]或位图转换为整数(R.drawable.picture)Androidjava》经验，为你挑选了1个好方法。 ... [详细]
程序员
import com.microsoft.windowsazure.messaging.*; 未检测到.我应该在android studio中添加哪个库？

如何解决《importcom.microsoft.windowsazure.messaging.*;未检测到.我应该在androidstudio中添加哪个库？》经验，为你挑选了0个好方法。 ... [详细]
程序员
nunit3如何在命令行中包含测试类别

如何解决《nunit3如何在命令行中包含测试类别》经验，为你挑选了2个好方法。 ... [详细]

php

这个屌丝很懒，什么也没留下！

关注作者

Tags | 热门标签

RankList | 热门文章